#GPT-5.2 Pro
陶哲軒潑冷水:我不相信AGI!但又一數學難題被GPT-5.2 Pro攻克
就在剛剛,陶哲軒po文揭秘:當前的AI無法實現真正的AGI,不過,他們倒是擁有一些有用的小聰明,或者可以說「通用狡猾」。而就在同時,又一多年數學難題被GPT-5.2 Pro攻克了。就在今天,即將離職Meta的LeCun再次給當前AI判死刑——這條路行不通,而且永遠不會成功。前不久,GoogleDeepMind首席科學家Shane Legg給出預測:最小AGI有50%的可能性在2028年實現。業界都在討論的AGI之爭,陶哲軒是如何看待的?就在剛剛,陶哲軒po文明確了自己的態度——還不行。他認為,目前還無法實現AGI。我懷疑目前工具還無法實現真正意義上的「人工通用智能」。然而,我認為一種較弱但仍然非常有價值的「人工通用才智」,正在以各種方式成為現實。而他的觀點,立馬在網上引起了廣泛討論。網友們表示,陶哲軒這樣聰明的人,都認為AGI並未實現,這樣太令人絕望了——希望他是錯的吧。陶哲軒:不是AGI,只是魔術師什麼叫通用才智?陶哲軒是這樣解釋的。「通用才智」是指通過某種臨時手段解決廣泛複雜問題的能力。這些手段可能是隨機的,也可能是暴力計算的成果;它們可能缺乏根基或容易出錯;它們可能難以解釋,也可能能追溯到AI訓練資料中類似的技巧。因此,它們不能被視為任何真正「智能」的結果。然而,它們在實現日益廣泛的任務時,可以擁有非同尋常的成功率,尤其是在結合嚴格的驗證程序以過濾掉錯誤或不具前景的方法時,其規模已超出了單個人類所能達到的範圍。可以理解為,這是一種「通用狡猾」AI。而這種「通用狡猾」AI,就會讓人感覺非常匪夷所思。比如在有時候,這些技術非常實用,令人印象深刻,然而從根本上說,它卻令人不滿和失望。AI是「最強大腦」魔術師?想像這樣一個場景:一位魔術師上台,憑空變出鴿子、猜中你選的牌、把水杯變成金魚。全場掌聲雷動,觀眾目瞪口呆。結果他平靜自曝:「其實我袖子藏了十八個機關,桌下有暗格,牌是特製的,金魚是提前藏好的。」掌聲戛然而止。如今的AI,就像這位魔術師一樣。它能寫詩、程式設計、解數學題——但如果你問它:「你是怎麼想到這個答案的?」它可能會誠實坦白:「我在訓練資料裡見過類似題目,機率上這個回答匹配度最高。」所以,這其實不是智能,而是基於海量資料的「聰明把戲」。「通用狡猾AI」,反而起了大作用對於這種「通用狡猾AI」,陶哲軒是怎麼解釋的。雖然聰明才智和智力在人類身上是某種程度上相關的特質,但對於AI工具(這些工具通常被最佳化以追求聰明才智)來說,它們卻更加解耦,將當前一代這樣的工具主要視為一個隨機生成有時聰明,且往往有用的思想和輸出的生成器,在嘗試使用它們解決難題時,可能是一種更具生產性的視角。也就是說,智能≠聰明。對人來說,二者是同時存在的;但對於AI而言,所謂的「聰明」,也就是快速解決複雜問題,可以獨立存在。當前AI的「聰明」,是隨機的,暴力的,可錯的,難解釋的。最終,它並不是靠智慧取勝,而是靠「大規模試錯與匹配」,就像用超級望遠鏡,在答案星海裡撈最亮的幾顆。當今的AI,並不是全知全能,然而這個「不夠智能但足夠聰明」的工具,卻已經悄悄改變知識工作的每一個環節。對於陶哲軒的說法,網友們表示的確如此。對於目前的AI來說,看似便利但難以預測的思想,似乎是一種主要應用場景。可以說,陶哲軒所說的,就是目前AI能力「參差不齊的邊界」。甚至評論區還出現了中文留言,認為目前的AI底層架構就決定了,即使投入無限多的算力,產出的東西也依然有邊際。而在Reddit的帖子中,網友們也對此展開熱議。有人對表示,自己非常尊重陶哲軒,但對他的部分觀點表示反駁。有人說,他用「狡猾」或「巧妙」一詞,來針對現代LLM缺乏系統性思維的缺點。目前,他或許是對的。不過,ChatGPT還只有3歲,如果要宣佈所有LLM都有此侷限,至少還應該再等待十年。又一數學難題被AI破解巧的是,就在陶哲軒發出這個論點不久,又有一道數學難題被AI破解了!滑鐵盧大學電腦系的助理教授Kimon Fountoulakis激動發帖稱,GPT-5.2剛剛解決了COLT 2022開放問題——使用標準加速梯度演算法和互補性邊界假設,證明加速L1正則化PageRank的執行階段間複雜度。其中,所有證明都由GPT-5.2 Pro生成。演算法總工作量的關鍵界限,則是使用 GPT-5.2 Pro、Aristotle和Antigravity上的Gemini 3 Pro (High) 組合完成了自動的形式化。多倫多大學的教授Daniel Litt也出來表示,GPT-5.2 Pro的確很強,它對於自己的代數幾何和數論研究,都產生了巨大飛躍。懸賞8年難題,GPT-5.2用數學證明封神這道難題,已經困擾了教授8年。自2024年以來,每次OpenAI或Google發佈一個新模型,他都會拿過來嘗試一下。令人沒想到的是,這一次,GPT-5.2竟然成功了!教授這樣回憶道:這個開放性問題,我們嘗試了三年,失敗了;找博士生做,也失敗了;問了多位頂尖學者,都說太難了。2022年,這道關於「加速L1正則化PageRank演算法時間複雜度」的難題,被正式列為COLT國際頂級會議的開放問題之一,懸賞求解。誰也沒想到,兩年後,這道難倒無數學者的題目,竟被GPT-5.2悄然攻克。懸賞故事要從2016年說起。當時,教授在最佳化PageRank演算法時發現,經典迭代軟閾值演算法在求解帶L1正則的PageRank問題時,其執行階段間竟然只與最終解的非零節點數有關,出奇地高一個很自然的追問隨之而來:如果用上加速演算法,比如在最佳化領域聲名顯赫的FISTA,會不會更快?理論上應該如此。但現實卻潑了一盆冷水:FISTA在迭代過程中會「啟動」大量本應為零的節點,雖然最終能收斂到正確的稀疏解,但中間過程卻很鋪張浪費。開始,教授嘗試了三個月,想從理論上界定FISTA的總計算量,失敗了。後來斷斷續續又試了幾次,直到2021年,無論是教授最傑出的學生,還是幾位大牛研究者,都對這個問題束手無策。團隊決定,將這個難題公之於眾。2022年,它被正式列為COLT的開放問題,向全球機器學習社區發起挑戰。破局第一個成功的解法,出現在2023年。David Martínez-Rubio等人提出了一種新穎的加速演算法,從完全不同的角度給出解答。然而,這個演算法為了達到加速效果,需要在每一步求解一個昂貴的子問題,在實際應用中效率很低。直到GPT-5.2發佈後,真正的轉折點來了。這一次,GPT-5.2給出了完整的證明。而且令人震驚的是,它給出的恰恰是針對經典FISTA演算法的證明。它揭示了在一種被稱為「互補性邊界」的合理假設下,FISTA的總計算量可以被優雅地界定,並且在特定的圖結構上,能展現出明確優於經典演算法的加速效果。更關鍵的是,這個證明解釋了長期困擾學界的現象:儘管FISTA在迭代中會啟動更多節點,但這些「多餘啟動」是可控的、暫時的。一旦迭代進入最優解的一個鄰域,演算法就會迅速收斂。怎麼證明?三重驗證GPT-5.2的證明能令人信服嗎?為此,團隊搭建了一個三重驗證體系。首先,GPT-5.2 Pro生成了完整的證明初稿。接著,團隊借助@HarmonicMath的Aristotle系統,結合Gemini 3 Pro模型,將證明中的關鍵不等式和複雜度上界,逐行轉化成了形式化的Lean程式碼。而且除了形式化驗證之外,教授自己也把證明從頭到尾證明了兩遍。目前看來,證明是沒問題的。陶哲軒會被說服嗎又一數學難題被GPT-5.2 Pro攻克,這不由得引起網友討論——它會成為AGI嗎?陶哲軒會看到希望嗎?至少,目前GPT-5.2再一次證明了LLM在深度數學推理上的驚人潛力。而且,它也彌合了理論分析與實際演算法之間的鴻溝。它的證明,為最經典的加速演算法提供了缺失的理論基石。當然,這並不意味著AI能取代理論科學家。可以說,它更像是一個擁有驚人直覺和不知疲倦的協作者。人類提出關鍵問題、界定框架、判斷價值,AI則能在龐大的數學空間裡,幫我們找到那條通往答案的隱秘小徑。 (新智元)
剛剛,OpenAI迎10周年,發GPT-5.2,重點是和白領搶工作
8大榜點選敗Gemini 3 Pro,打平71%人類專家,數學競賽滿分。智東西12月12日報導,今日凌晨,正值OpenAI十周年生日,OpenAI正式推出其迄今最強模型GPT-5.2,並同步上線ChatGPT與API體系。本次更新包含GPT-5.2 Instant、Thinking與Pro三個版本,將從今日起陸續向Plus、Pro、Business與Enterprise等付費方案使用者開放,Free與Go使用者預計將於明日獲得存取權。同時,GPT-5.2也已納入API與Codex中供開發者呼叫。▲圖源:X平台現有的GPT-5.1將在ChatGPT中繼續作為過渡版本向付費使用者提供三個月,之後將正式下線。OpenAI官方稱,GPT-5.2屬於其持續改進模型系列的一部分,後續仍將圍繞過度拒絕、響應延遲等已知問題進行迭代最佳化。在API端,GPT-5.2 Thinking對應gpt-5.2,Instant對應gpt-5.2-chat-latest,Pro對應gpt-5.2-pro,開發者可直接呼叫。▲圖源:OpenAI官方部落格在價格方面,GPT-5.2的呼叫價格較上一代上調,輸入端1.75美元/百萬tokens(約合人民幣12.35元/百萬tokens)、輸出端14美元/百萬tokens(約合人民幣98.81元/百萬tokens)。GPT-5.2 Pro的定價為21美元與168美元/百萬tokens(約合人民幣148元與1185元/百萬tokens),並首次支援第五檔推理強度xhigh。▲圖源:OpenAI官方部落格OpenAI聯合創始人兼CEO Sam Altman在社交平台X上公佈了GPT-5.2在多項前沿基準上的成績:SWE-Bench Pro達到55.6%,ARC-AGI-2為52.9%,Frontier Math為40.3%。▲圖源:X平台這些基準主要用於衡量模型在複雜程式碼修復、通用推理與高難度數學任務中的表現,GPT-5.2在高階任務上的穩定性進一步提升。根據OpenAI官方部落格,GPT-5.2在涵蓋44個職業的明確知識工作任務中,表現均優於行業專業人士。相比GPT-5.1 Thinking,GPT-5.2 Thinking在應對知識型任務、程式設計、科學問題、數學、抽象推理的多項能力均大幅提升,尤其是在頂尖數學競賽AIME 2025拿到滿分成績,在OpenAI專業工作基準測試GDPval中戰勝或打平70.9%的人類專家。▲圖源:OpenAI官方部落格OpenAI團隊成員Yann Dubois也在社交平台X平台上發帖稱,GPT-5.2 Thinking的設計重點放在“經濟價值較高的任務”(如編碼、表格與演示文件)。▲圖源:X平台此外,在SWE-Bench Pro、GPQA Diamond等8項基準測試中,GPT-5.2 Thinking的分數均超過GoogleGemini 3 Pro和Anthropic Claude Opus 4.5。▲圖源:OpenAI值得一提的是,GPT-5.2在處理多模態任務方面的能力明顯提升,大有追上Gemini的架勢。“頂流”AI程式設計助手Cursor第一時間宣佈上新GPT-5.2。與此同時,微軟董事長兼CEO Satya Nadella宣佈,GPT-5.2將全面進入Microsoft 365 Copilot、GitHub Copilot與Foundry等產品體系。▲圖源:X平台在GPT-5.2的發佈會上,OpenAI應用業務負責人Fidji Simo也確認,外界關注已久的ChatGPT“成人模式(adult mode)”預計將在2026年第一季度上線。Fidji Simo稱,在推出該模式前,OpenAI希望確保年齡預測模型足夠成熟,能夠準確識別未成年使用者,同時避免誤判成年人。目前,該年齡預測模型已在部分國家進行早期測試,主要用於自動應用不同的內容限制與安全策略。01.專業任務能力躍升首次達到“專家級”評分根據OpenAI官方披露,GPT-5.2 Thinking在覆蓋44類職業任務的GDPval評測中,首次達到“專家級”表現——在70.9%的對比中戰勝或持平行業專業人士。GPT-5.2 Pro進一步提升至74.1%。在僅統計“明確勝出”的任務中,GPT-5.2 Thinking為49.8%,Pro則達到60%。這一評測覆蓋銷售演示、預算模型、營運排班、製造流程圖等多類真實業務成果。GPT-5.2在這些任務的生成速度約為人工專家的11倍,成本為其1%以下。在投研類任務中,GPT-5.2 Thinking在內部評測的投行三表模型與槓桿收購模型等場景中的平均得分為68.4%,較GPT-5.1 Thinking的59.1%有明確提升,GPT-5.2 Pro得分進一步增長至71.7%。▲圖源:OpenAI官方部落格▲GPT-5.1 Thinking與GPT-5.2 Thinking效果對比02.程式碼、工具呼叫與長鏈路任務全面升級在程式碼能力方面,GPT-5.2 Thinking在更嚴格的SWE-bench Pro(跨四種語言、強調真實工程難度)中取得55.6%,在SWE-bench Verified中更是達到80%,均顯著領先GPT-5.1的50.8%與76.3%。在SWE-Lancer IC Diamond任務中,GPT-5.2 Thinking取得74.6%(GPT-5.1為69.7%)。▲圖源:OpenAI官方部落格與此同時,GPT-5.2出現在AI基準平台Imarena.ai(Arena)排行榜中,並在WebDev測試中取得1486分,位列第二,僅落後榜首3分,領先Claude-opus-4-5與Gemini-3-pro等主流模型。另一個版本GPT-5.2則以1399分排在第六。根據Arena說明,GPT-5.2此前在內部以“robin”和“robin-high”為代號進行測試,其分數與GPT-5-medium僅相差1分,目前仍為初步結果,未來有望隨著測試量積累而進一步穩定。從評測維度來看,Arena主要衡量模型在可部署Web應用情境下的端到端編碼能力,GPT-5.2已反映出其在複雜任務鏈條上的實用性。在事實精準性方面,GPT-5.2 Thinking在基於ChatGPT查詢的無錯誤回答率(開啟搜尋模式下)達到93.9%,較GPT-5.1的91.2%有所改善,在無搜尋情況下也從87.3%提升至88%。▲圖源:OpenAI官方部落格另一個關鍵變化來自工具呼叫與長鏈路任務的可靠性提升。GPT-5.2 Thinking在Tau-2 Bench Telecom中達到98.7%的最高得分,在零推理模式下也大幅領先上一代,在更高噪聲的Retail場景中精準率從77.9%提升至82%。在更通用的工具鏈評估BrowseComp中,GPT-5.2 Thinking達到65.8%,Pro版本達到77.9%,亦高於GPT-5.1的50.8%。▲圖源:OpenAI官方部落格OpenAI提到,GPT-5.2 Thinking和Pro均支援第五檔推理強度xhigh,適用於長流程、多步驟、高精度的專業任務場景。03.在長上下文與視覺理解GPT-5.2全面增強在長上下文能力上,GPT-5.2 Thinking在OpenAI MRCRv2中全面領先上一代,在8 needles測試中從4k到256k的範圍內均保持遠高於GPT-5.1的表現,其中在4k–8k長度下達98.2%,在128k–256k長度下仍保持77.0%,而GPT-5.1同期為29.6%–47.8%區間。在其他長文場景中,BrowseComp Long Context(128k/256k)中,GPT-5.2 Thinking分別達到92.0%與89.8%。GraphWalks任務中,GPT-5.2 Thinking在bfs與parents子集分別達到94.0%與89.0%,相比GPT-5.1的76.8%與71.5%顯著提升。▲圖源:OpenAI官方部落格在視覺理解上,GPT-5.2 Thinking在CharXiv科學圖表推理任務中無工具模式下為82.1%,開啟Python工具後進一步提升至88.7%。在ScreenSpot-Pro介面理解中,GPT-5.2 Thinking取得86.3%,遠高於GPT-5.1的64.2%。在視訊類、多模態綜合難度更高的Video MMMU中,也從82.9%提升至85.9%。在視覺能力上,GPT-5.2在ScreenSpot-Pro(介面理解)中達到86.3%的精準率,相比GPT-5.1有明顯提升。在CharXiv科學圖表推理任務中,也實現了準確率的大幅增長。這使其在處理科研圖表、營運儀表盤、產品介面截圖等專業視覺輸入時更加可靠。▲圖源:OpenAI官方部落格04.微軟全家桶同步升級GPT-5.2成為新一代“生產力模型”隨著GPT-5.2發佈,微軟董事長兼CEO Satya Nadella也在社交平台X平台上宣佈,GPT-5.2將全面進入Microsoft 365 Copilot、GitHub Copilot與Foundry等產品體系,並作為新的“默認推理模型”服務更多工作流場景。在Microsoft 365 Copilot中,使用者已經可以通過模型選擇器啟用GPT-5.2,用於會議記錄分析、文件推理、市場研究與戰略規劃等高複雜度任務。Nadella稱,將模型與使用者工作資料結合後,GPT-5.2能夠更充分發揮推理優勢。在GitHub Copilot中,GPT-5.2適用於長上下文推理與複雜程式碼庫審查,重點覆蓋跨檔案關係分析、依賴追蹤與重建構議等工程類使用場景。此外,GPT-5.2還同步進入Microsoft Foundry與Copilot Studio,開發者可在建構自動化流程、企業內部Agent或自主開發時直接呼叫GPT-5.2模型。面向消費者端的Copilot也將隨後啟動分階段更新,逐步替換當前版本。▲圖源:X平台從微軟生態的覆蓋面來看,GPT-5.2已被定位為“默認生產力模型”,在不同產品線之間以自動模型選擇的方式服務更廣泛的開發、寫作與分析任務。此外,頂流AI程式設計助手Cursor也已第一時間火速上線GPT-5.2,並同步沿用OpenAI官方API價格。▲圖源:Cursor05.結語:GPT-5.2的能力邊界正向“穩定、實用”收攏從多項公開基準測試到Arena針對Web應用端到端能力的評測結果,GPT-5.2展現出的整體能力向穩定可用和任務完成度方向收攏。隨著Instant、Thinking與Pro組成的多檔能力體系的開放,GPT-5.2在不同工作流中被切分為更清晰的使用場景。而在微軟生態中的全面接入,也進一步強化了這一變化的方向。無論是在M365 Copilot中承擔跨文件推理,還是在GitHub Copilot中處理長上下文程式碼鏈路,GPT-5.2都開始參與到更高頻、更具體的任務流程中。除了推出面向專業工作和智能體的前沿模型外,OpenAI還宣佈已經與迪士尼達成授權協議,允許Sora 2使用者在生成並分享的圖片中使用迪士尼角色。迪士尼將向OpenAI投資10億美元(約合人民幣71億元),並擁有未來增持股份的選擇權。 (智東西)